|
Apache Hive はHadoopの上に構築されたデータウェアハウス 構築環境であり、データの集約・問い合わせ・分析を行う。Apache Hiveは当初はFacebookによって開発されたが、そのNetflixのようにさまざまな団体が開発に参加しまたユーザーとなった〔Use Case Study of Hive/Hadoop 〕。 Hive はAmazon Web Servicesの''Amazon Elastic MapReduce''にも含まれている〔Amazon Elastic MapReduce Developer Guide 〕。 ==特徴と機能== Apache HiveはHadoop互換のファイルシステム(たとえばAmazon S3)に格納された大規模データセットの分析を行う。使用には、map/reduceを完全にサポートしたSQLライクな「HiveQL」という言語を用いる。クエリの高速化のため、ビットマップインデックスを含めたインデクス機能も実装している〔Working with Students to Improve Indexing in Apache Hive 〕。 標準設定では、Hiveはメタデータを組み込みApache Derbyデータベースに格納するが、オプションとしては別に用意したクライアント・サーバデータベース(たとえばMySQL)に格納させることもできる。 現在、Hiveがサポートするファイルフォーマットは3種類あり、それらはTEXTFILE, SEQUENCEFILE および RCFILEである〔Facebook's Petabyte Scale Data Warehouse using Hive and Hadoop 〕。 Hiveが提供する機能には他には次のようなものがある〔Hive – The next generation data warehouse 〕: * 高速化のためのインデックス作成 * 別の種類のストレージタイプ。たとえばプレーンテキスト・RCFile・HBaseなど * クエリ実行時のセマンティックチェック時間を大幅に短縮するため、メタデータをRDBMSに格納する機能 * Hadoop環境に格納された圧縮データを扱う機能 * 日付型・文字列型を扱ったり他のデータ操作を可能とする組み込みユーザ定義関数(UDF)。組み込み関数で用意されていない機能もユーザが自作UDFを作成することで対応することが可能 * SQLライクなクエリ言語(Hive QL)。これは内部的にMap/Reduceジョブに変換される 抄文引用元・出典: フリー百科事典『 ウィキペディア(Wikipedia)』 ■ウィキペディアで「Apache Hive」の詳細全文を読む スポンサード リンク
|